Zur methodischen Vorbereitung von Data-Mining-Projekten im Kontext diskreter Produktionsprozesse
نویسندگان
چکیده
Die Analyse von Produktionsprozessen innerhalb von Data-Mining-Projekten stellt einen hohen Anspruch an die interdisziplinäre Zusammenarbeit zwischen Domänenund DataMining-Experten. Die vorgeschlagene modellgestützte Methode offeriert dazu einen ersten Vorschlag, wie real-weltliche Produktionsprozesse in eine von analytischen Verfahren geprägte Welt überführt werden können. Dazu werden die Anforderungen aus beiden Bereichen sowie ein Standardvorgehen für diesen Diskursbereich in einem Modell integriert, dessen Erstellung nachfolgend erläutert wird. 1 Problemstellung und Motivation Die industrielle Wertschöpfung erfolgt in fortwährend komplexer werdenden Produktionsprozessen, welche oft durch sehr vielschichtige Ursache-Wirkungsbeziehungen charakterisiert sind und hinsichtlich ihrer Planung, Durchführung, Steuerung und Kontrolle von umfangreichem Expertenwissen abhängig sind (Wiedenmann, 2001, S. 30 f.) Durch die zunehmende Verbesserung und Verbreitung von Sensorik und Aktuatorik steigert sich die Leistungsfähigkeit von autonomen Produktionssystemen, welche zukünftig selbständig miteinander durch Datennetze kommunizieren, entscheiden und agieren sollen. Neben der geplanten technologischen Verbesserung im Prozessablauf stellt die enorme Menge an erzeugten Prozessdaten und das Management dieser Daten (Erhebung, Analyse und Verarbeitung) bereits heute eine zentrale Herausforderung, aber auch ein hohes Potential dar. Prozessdaten enthalten historisierte, wettbewerbsrelevante Informationen, welche die Charakteristik von Prozessen abbilden und daher neben dem menschlichen Expertenwissen einen gleichbedeutenden Stellenwert besitzen. Erklärungsmodelle sollen Marcus Hofmann, Robert Krawatzeck, Frieder Jacobi 48 dabei helfen, solche sozio-technische Systeme zu verstehen und anschließend zu verbessern (Kagermann, Wahlster & Helbig, 2013, S. 46 f.) Dieser Beitrag beschäftigt sich mit der methodischen Vorbereitung – Untersuchung der Geschäftsziele und Datenvorverarbeitung von Data-Mining-Projekten zum Aufbau derartiger Erklärungsmodelle für diskrete Produktionsprozesse, welche über einen mächtigen Prozessdatenbestand verfügen. Die Vorbereitung und Durchführung von Data-Mining-Projekten innerhalb von diskreten Produktionsprozessen stellt einen hohen Anspruch an die interdisziplinäre Zusammenarbeit zwischen Domänenund Data-Mining-Experten. Dabei kommt es nicht allein auf die Daten an, sondern auch die Beschreibung der Daten und die untersuchte Domäne sind von großer Bedeutung für den Erfolg künftiger Projekte (Lukasz, Musilek, 2006, S. 19; Marban et al., 2007, S. 97 ff.; Mariscal, 2013, S. 160 ff.; Sharma & Osei-Bryson, 2009 S. 4114 ff.) Mit CRISP-DM (Cross Industry Standard Process for Data Mining) basiert dieser Beitrag auf einem der meist verwendeten Vorgehen zur Durchführung von Data-MiningProjekten, welches besonders im Anwendungsbereich der Industrie zu finden ist [Mariscal, 2010, pp. 139) Gemessen an der Evolution von Data-Mining-Vorgehensmodellen bildet CRISP-DM zum einen die Vereinigung von bereits sehr etablierten Vorgehen wie dem KDD-Prozess und industriellen Ansätzen (z.B. SEMMA) und zum anderen dient es als Ausgangspunkt für neue Ansätze (z.B. Cios et al. 2005, CRSIP-DM 2.0) (Azevedo, Santos, S. 185; Mariscal, 2010, S. 142). Das Referenzvorgehen CRISP-DM definiert und beschreibt pro Phase einzelne generische Aufgaben unabhängig vom Anwendungsbereich sowie den verwendeten Technologien, um Data-Mining-Projekte systematisiert durchführen zu können. Das Benutzerhandbuch als inhaltliche Erweiterung gibt ausführliche Tipps und Hinweise zu den einzelnen Phasen und deren Aufgaben (IBM, 2010, S. 3 f.; Lukasz & Musilek, S. 5). Die Lösung der Aufgaben ist jedoch von der jeweiligen Situation abhängig. Situationen werden durch einen Kontext definiert, welcher durch die Anwendungsdomäne und weitere Faktoren charakterisiert wird. CRISP-DM liefert ausschließlich ein sehr abstraktes Vorgehen für eine Zuordnung des generischen Modells auf konkrete Anwendungsbereiche (IBM, 2010, S. 4; Mariscal, 2010, S. 139). Zusammenfassend können daher folgende Begründungen für eine Konkretisierung (B) konstatiert werden: B1: Eine situationsbezogene Konkretisierung ist methodisch nicht gewährleistet. B2: Die Ermittlung der relevanten Datenquellen für eine Analyse bleibt sehr vage und isoliert vom eigentlichen Analyseobjekt. B3: Die Integration von Rollen (z. B. Domänenu. Data-Mining-Experte) in das Vorgehen wird nicht geregelt. Automatische Erstellung nutzerspezifischer ETL-Dokumentation 49 B4: Eindeutige Zusammenhänge und Abhängigkeiten zwischen den jeweiligen Ergebnissen der einzelnen Phasen werden außer Acht gelassen. B5: Ergebnisse werden in ihrer Form nicht spezifiziert und sind damit nur schwer wiederverwendbar. B6: Die Wiederverwendbarkeit von vorbereitenden Teilergebnissen bei unterschiedlichen Analyseverfahren ist nicht gegeben. Bezugnehmend auf die Problemstellung und Motivation wird das Standardvorgehen CRISP-DM in ausgewählten Punkten der Analysevorbereitung spezialisiert und wiederverwendbar für diskrete Produktionsprozesse angepasst werden, um die interdisziplinäre Zusammenarbeit und damit den Aufbau von prozessspezifischen Erklärungsmodellen zu unterstützen.
منابع مشابه
Audience Response Systeme als praxisgerechte Alternative zu etablierten elektronischen Datenerhebungsmethoden
Audience Response Systeme (ARS) stellen eine Option dar, größere Gruppen anonym zu befragen und ihre Antworten synchron elektronisch zu speichern und zu verarbeiten. Für eine wissenschaftliche Erhebung eignen sich ARS insbesondere durch motivierende Effekte, die aus der Präsentation von Ergebnissen im Anschluss an eine Befragung und der Möglichkeit zur individuellen Reflexion des eigenen Antwor...
متن کاملVorwort: Big Data Technologien zur Analyse und Steuerung komplexer cyber-physischer Systeme
Neue Kommunikationstechnologien und immer leistungsfähigere Hardware im Bereich eingebetteter Systeme haben in den letzten Jahren zu einer massiven Zunahme von vernetzten cyber-physischen Systemen (CPS) geführt. Solche aus Softwaremodulen, Netzwerkund Kommunikationsund physischen Hardwarekomponenten bestehenden Systeme werden die Grundlage für die technologische Bewältigung vielartiger gesellsc...
متن کاملUsER - Ein prozessorientiertes Entwicklungssystem für Usability-Engineering
Das Usability-Engineering-Repository UsER ist eine modulare, webbasierte Entwicklungsumgebung, die kollaborative Analyse, Design und Evaluation interaktiver Systeme unterstützt. Zu diesem Zweck bietet UsER diverse Module zur methodischen, dokumentarischen und kommunikativen Unterstützung an. Dieser Beitrag verdeutlicht am Beispiel von Prozessen zur Gestaltung gebrauchstauglicher interaktiver Sy...
متن کاملRisikomanagement im Data Warehousing: Situative Komposition einer methodischen Vorgehensweise
Data Warehousing (DWH)-Projekte sind einer Vielzahl strategischer, unternehmenspolitischer, organisatorischer und technischer Risiken ausgesetzt: Studien und Expertenbefragungen beziffern den Anteil der Projekte mit DWHBezug, die aus den verschiedensten Gründen fehlgeschlagen sind, auf 40 bis 75 Prozent. Aus diesen Zahlen lässt sich dringender Handlungsbedarf für die systematische und proaktive...
متن کاملEin kontext-sensitives Werkzeug zur Anforderungserhebung vor Ort
Der Kontext, in dem ein Softwaresystem eingesetzt werden soll, stellt eine wichtige Informationsquelle für die Anforderungserhebung dar [1]. Das gilt im Besonderen, wenn sich die Anforderungen der Benutzer abhängig vom jeweiligen Kontext ändern und das Softwaresystem auf die geänderte Situation reagieren soll. Kontext-sensitive Systeme sind häufig mit Anwendungen im Bereich des Mobileund Ubiqui...
متن کامل